RCNN,Fast |
您所在的位置:网站首页 › vgg16 论文 › RCNN,Fast |
什么是目标检测? 所谓目标检测就是在一张图像中找到我们关注的目标,并确定它的类别和位置,这是计算机视觉领域最核心的问题之一。由于各类目标不同的外观,颜色,大小以及在成像时光照,遮挡等具有挑战性的问题,目标检测一直处于不断的优化和研究中。 RCNNRCNN算法流程: 1.输入一张图像(图片的大小并没有固定的要求。然而,为了方便处理和训练,通常会将输入图片调整为固定的尺寸。常见的图片大小为224x224、227x227或者299x299像素。) 2.通过selective search算法选出不同大小的Region Proposal区域。 Selective Search算法主要步骤: 1)使用一种过分割手段,将图像分割成小区域 (1k~2k 个) 2)计算所有邻近区域之间的相似性,包括颜色、纹理、尺度等 3)将相似度比较高的区域合并到一起 4)计算合并区域和临近区域的相似度 5)重复3、4过程,直到整个图片变成一个区域 3.由于输入卷积神经网络的图片大小要求相同,所以需要对Region Proposal区域做图像上的归一化(即使不同的RP,变成相同的大小)。 4.通过卷积神经网络输出向量,再通过SVM进行分类。使用回归器精细修正候选框位置。 缺点: 1.训练时间长:主要原因是分阶段多次训练,而且对于每个region proposal都要单独计算一次feature map,导致整体的时间变长。 2.占用空间大:每个region proposal的feature map都要写入硬盘中保存,以供后续的步骤使用。 3.multi-stage:文章中提出的模型包括多个模块,每个模块都是相互独立的,训练也是分开的。这会导致精度不高,因为整体没有一个训练联动性,都是不共享分割训练的,自然最重要的CNN特征提取也不会做的太好。 4.测试时间长,由于不共享计算,所以对于test image,也要为每个proposal单独计算一次feature map,因此测试时间也很长。 5.训练比较麻烦,首先需要先训练分类模型网络,进而对bounding box进行回归计算。 Fast-RCNNFast RCNN算法流程: 1.通过selective search算法选出不同大小的Region Proposal区域。 2.直接把整张图片输入卷积神经网络,生成特征图(卷积共享,提升速度)。 3.在这个convnet输出的feature map上通过感受野找到输入图片上对应的RoI,特征图上的区域就是输入图像上RoI的特征。 4.通过ROI Pooling(借鉴SSPNet的思想)将图片变成相同的大小。变成固定长度的全连接层输入。 5.在通过全连接层与SVM进行分类和使用回归器精细修正候选框位置。 优缺点: (1)Fast RCNN与RCNN相比有如下优点: 1.测试时的速度得到了提升。RCNN算法与图像内的大量候选帧重叠,导致提取特征操作中的大量冗余。而Fast RCNN很好地解决了这一问题。 2.训练时的速度得到了提升。 3.训练所需的空间大。RCNN中分类器和回归器需要大量特征作为训练样本,而Fast RCNN则不再需要额外的存储。 (2)Fast RCNN仍存在的不足: 1.由于使用的Selective Search选择性搜索,这一过程十分耗费时间。 2.由于使用Selective Search来预先提取候选区域,Fast RCNN并未实现真正意义上端到端的训练模式。 Faster-RCNNFaster RCNN算法流程: 1.将原始图片直接输入到convnet(卷积神经网络)中,生成特征图。(不再进行Selective Search算法) 2.在输出的feature map上施加一个Region Proposal Network (RPN),用来代替之前在原始图像上的传统方法。通过RPN产生很多个候选框。然后进行Classification loss(为二分类,判断这个框是不是物体,用来过滤不要的候选框),Bounding-box regression loss(微调给定的边框,使之anchor box可以更接近gt的框。) 3.将CNN和RPN网络相加,进行ROI Pooling,最终输出分类对区域框中的图像进行分类,回归则是为了预测分类框的位置。 RPN 算法流程: 1.经过VGG或者ZFNet产生的特征图作为RPN的输入。 2.在特征图上执行3x3的滑窗操作,每个滑窗对应的区域映射为低维特征(256-d for ZF and 512-d for VGG, with ReLU following),后接两个全连接分支:一个分类一个回归。 3.每个3x3滑窗的中心,在原始图像上对应的感受野上有k kk个anchor boxes(论文中是9个:3个尺度和对应的3个长宽比),所以每个滑窗会得到2k个分类结果和4k个回归结果。
优缺点: 优点: 准确性高:由于使用了RPN(区域提议网络)来生成候选区域,再通过RoI(感兴趣区域)池化来提取特征,因此Faster RCNN的准确性比较高。处理速度快:使用预训练的卷积神经网络(如VGG16、ResNet等)加速了训练和测试过程。缺点: 时间复杂度高:Faster RCNN的算法流程比较复杂,训练和推理时间比较长。实际应用困难:Faster RCNN的实际应用不够方便,需要一定的研究门槛。 总结该图来源于:(4条消息) 一文详解R-CNN、Fast R-CNN、Faster_faster rcnn参数量和模型大小_Hong_Youth的博客-CSDN博客 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |